语音转换是一项常见的语音综合任务,可以根据特定的现实情况来以不同的方式解决。最具挑战性的人通常被称为单一镜头多次的语音转换是在最一般的情况下,从一个参考语音中复制目标语音,而源和目标扬声器都不属于培训数据集。我们提出了一种基于扩散概率建模的可扩展高质量解决方案,与最新的单发语音转换方法相比,它表现出了优质的质量。此外,我们专注于实时应用程序,我们研究了可以更快地使扩散模型的一般原则,同时将合成质量保持在高水平。结果,我们开发了一种新型的随机微分方程求解器,适用于各种扩散模型类型和生成任务,如经验研究所示,并通过理论分析证明了它。
translated by 谷歌翻译